Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach inc...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
kohbis
May 28, 2026
Technology
320
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
【日経×MIXI×カカクコム】SREで築く障害耐性〜長期運用を支える復旧力〜
https://nikkei.connpass.com/event/391773/
kohbis
May 28, 2026
More Decks by kohbis
See All by kohbis
Kubernetes環境周りの責任範囲をいい機会なので考える / Taking the Opportunity to Clarify Kubernetes Responsibilities
kohbis
2
400
『家族アルバム みてね』におけるAmazon EKSコストとの向き合い方 / Optimizing Amazon EKS Costs: The FamilyAlbum Case
kohbis
4
1.7k
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
170
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
1.1k
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
4
6.8k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
980
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
290
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.6k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
2
310
Other Decks in Technology
See All in Technology
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
230
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
1
230
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
200
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
110
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
840
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
140
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
250
自宅LLMの話
jacopen
1
400
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
680
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
170
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
150
Featured
See All Featured
Paper Plane (Part 1)
katiecoart
PRO
0
8.8k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
Design in an AI World
tapps
1
240
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Producing Creativity
orderedlist
PRO
348
40k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Designing for humans not robots
tammielis
254
26k
WENDY [Excerpt]
tessaabrams
11
38k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
©MIXI 1 『家族アルバム みてね』における インシデント対応との向き合い⽅ 2026/05/28 【⽇経×MIXI×カカクコム】SREで築く障害耐性〜⻑期運⽤を⽀える復旧⼒〜 @kohbis
2 ©MIXI ABOUT ME Kohei SUGIMOTO 株式会社MIXI • 2022/04 ~
『家族アルバム みてね』SRE X / @kohbis 好きなPagerDuty通知⾳は「Morse Code」※1 ※1 https://speakerdeck.com/tk3fftk/sorosoroon-callnotong-zhi-yin-nituitekao-etemiyou-pagerdutybian
3 ©MIXI 『家族アルバム みてね』について(1/2) 家族アルバム みてねはスマホで撮った⼦どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスです。
4 ©MIXI 20,000,000 15,000,000 10,000,000 5,000,000 0 25,000,000 国内 海外
※ iOS‧Android™ アプリ登録者数、ブラウザ版登録者数の合計 2015年にリリースから、7⾔語‧175の国と地域で3,000万⼈以上の⽅にご利⽤いただいています。 『家族アルバム みてね』について(2/2) 人数 年月 30,000,000 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026.5
5 ©MIXI みてねのインシデント対応フロー(ざっくり) 完了 終息宣言 恒久対応/振り返り 対応 主に暫定対応 切り戻し/緩和 調査
アラート確認 エスカレーション 検知 PagerDuty/Slack オンコール制度については 『家族アルバム みてね』を⽀えるオンコールエンジニア制度
6 ©MIXI 『家族アルバム みてね』における障害耐性はなんのため? 【前提】みてねは「家族の思い出」をあずかるサービス 【体験】 • 写真や動画を閲覧できる • 写真や動画をアップロードできる
• 家族に共有できる • 商品を注⽂できる、家族に届く • 問い合わせや不安につながらない これらの「体験を損ねる」のがインシデント みてねの障害耐性は「家族の思い出にアクセスできる状態」を守るためにある
7 ©MIXI ゼロにはできない障害 発⽣したときに「なに」と「どのように」向き合うのか 「抑制‧復旧‧学習」の前に「なにを⾒て」「どう判断するか」がある 観点 意味 観測する 家族体験の異常に気づく 判断する
どの体験が壊れているかを特定する 抑制する 影響を小さくする 復旧する 通常利用できる状態に戻す 学習する 次回より早く修正する、小さく抑える
8 ©MIXI 観測 〜みてねではなにを⾒るのか〜 ※上段で検知できるものがほとんどだが、下段で検知するものも実際には存在する レイヤー 気づきたいこと API(Ruby on Rails)
閲覧・投稿・共有など主要機能の失敗や遅延 K8s(Amazon EKS) スケール不足、リソース逼迫、 Pod配置・起動失敗 データベース クエリ遅延、読み書き性能低下、コネクション枯渇 バックグラウンドジョブ キュー滞留、処理遅延、リトライ増加 CS問い合わせ 問い合わせ増加、実ユーザー影響 ビジネス指標 注文数・利用率・CVRなどの異常な変化
9 ©MIXI 観測するものと、アラートするものを整理する サービスの成⻑によって、⾒るべきものはあらゆる⽅向に増加する ➡ すべてにアラートを鳴らすと運⽤できない ➡ すべてをオンコール対象にはしない 観測対象は広く持ちながらも 「なにをオンコール対象にするのか」≒
「なにが守るべき体験なのか」が重要 障害耐性は、どうやってもサービスを運⽤する組織(≒ ⼈間)に依存する ➡ 仕組み化しても⾒るべきが広いと限界を迎える 棚卸しや閾値などの継続的な⾒直しも重要
10 ©MIXI 判断 〜体験への影響から⾒る〜 まず⾒るのは「原因」ではなく「ユーザー体験への影響」 観点 見たいこと 体験 閲覧 /
アップロード / 共有 / 登録などのどこに影響しているか 範囲 全ユーザーか、一部ユーザーか、特定 OSだけか 条件 特定OS / ユーザー / 機能などに偏っているか 深刻度 完全に使えないのか、遅いのか、一部失敗しているのか 回避策 一時停止 / 切り離し / リトライで影響を抑えられるか 外部影響 CS問い合わせ、注文数、利用状況に変化が出ているか
11 ©MIXI 抑制 — 影響を⼩さくする 影響を広げないために、状況に応じてサービスの動かし⽅を変える 対応 例 止める 一部機能停止、メンテナンスモード
絞る バッチ処理やバックグラウンドジョブの停止 緩める オートスケール閾値変更、リソース増強、制限値の一時緩和 切り離す 問題のあるリージョン、ジョブ、外部連携、特定機能の切り離し 逃す Read-only化、キャッシュ利用、リトライ抑制
12 ©MIXI 復旧 — 通常利⽤できる状態に早く、確実に戻す 「復旧」に必要なものが事前にどれだけ準備されているか(オンコール制度含む) たとえば • 誰が対応を始めたか分かる •
作業ログが残る • 最初に⾒る場所が分かる • Runbookにたどり着ける • 必要に応じてエスカレーションできる • 暫定対応を戻し忘れない etc. 障害耐性を⽀える復旧⼒は運⽤の積み重ねによって実現する 運⽤が確⽴されていなければ仕組み化‧⾃動化にもつなげられない
13 ©MIXI みてねにおけるオンコール担当の条件 障害対応時に適切なコミュニケーションができること • できるだけ早く反応できる • 必要な連絡先を判断し円滑にコミュニケーションを⾏うことができる • 対応ログを適切な箇所に残しながら作業ができる
AWSや各種モニタリングツールの扱いに慣れていること • 原因特定のためにモニタリングツールを利⽤しそのメトリクスを理解している • ログの検索‧保全ができる • 適切な負荷対策ができる ⾃分のスキルに過度な⾃信を持っていないこと • 個⼈で判断せずエスカレーションポリシーを遵守できる
14 ©MIXI 学習 〜次回の検知‧緩和‧復旧を改善する〜 復旧して終わりにしない ➡ ポストモーテムで⾒ること ➡ 何が起きたか /
どの体験に影響したか / どう検知したか / どう判断したか / どう抑制 したか / どう復旧したか / 次にどう早く気づくか / 次にどう影響を⼩さくするか etc. 学びの反映先 • アラート条件‧通知 • Runbook • 障害対応フロー • オンコールトレーニング ポストモーテムは、次の運⽤を変えるためにある ➡ みてねではエンジニア組織全体にポストモーテムを書く⽂化がある
15 ©MIXI それでも悩ましいインシデント管理 過去に挙げていた悩み ※1 • Runbook不⾜ ➡ アラートにページリンクを追加するように徐々に充⾜ •
原因調査の属⼈性 ➡ Runbook同様に地道なドキュメント追加 • インシデントコマンダー不在 • ポストモーテム作成が後回し ➡ AIの活⽤により⼤幅に改善 とはいえ、今も簡単ではない • コンポーネント‧監視対象が増える • ユーザー体験との対応づけが難しい • 情報共有の場づくりが難しい • Runbookを最新に保つのが難しい ※1 https://speakerdeck.com/kohbis/insident-management-is-a-tough
16 ©MIXI おまけ 〜今後のAI活⽤〜 みてねでは、⼀部でAI活⽤ • インシデント発⽣時の調査、修正 • Slackチャンネル(ウォールーム)からポストモーテム⾃動⽣成(Notion AI)
• 根本原因への対策や恒久対応など本当に⼈間が考えるべきこと以外は AIによる⾃動⽣成 AWS DevOps Agent ※1 の検証実施中 重要となるのはこれまでの蓄積 ➡ アラート / Runbook / 対応履歴 / ポストモーテム etc. AIを活かすにも、まず⼈間が何を⾒て判断しているかを整理する必要がある ※1 https://aws.amazon.com/jp/devops-agent/
17 ©MIXI まとめ みてねの障害耐性は、家族体験を守るための運⽤改善 障害はゼロにできない • だから、何を⾒るかが重要 • 何を守るかを判断する •
アラートはすべてで鳴らさず、⼈間が対応すべきものを設計する • 復旧⼒は、ツール‧Runbook‧エスカレーション⽂化で⽀える • 学びを次の観測‧判断‧抑制‧復旧に戻す 運⽤は完成しない 「家族の思い出をあずかる」サービスだからこそ、⾒るべきものを⾒直し続ける
©MIXI 18 ありがとうございました